本文介绍了与萨特布-Naija的基础努力,这是一种非原生(L2)尼日利亚语言语的新型语料库。我们描述了如何创建和策划的语料库以及令人口气分类和学习尼日利亚口音嵌入的初步实验。语料库的初始版本包括L2英语尼日利亚语言的900多个录音,例如Yoruba,Igbo,Edo,Efik-Ibibio和Igala。我们进一步演示了Wav2VEC的预先训练模型上的微调如何产生适合于相关语音任务的表示,例如重音分类。Sautidb-Naija已发表于Zenodo,以便在灵活的创造性的公共许可证下使用。
translated by 谷歌翻译